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基于 多 目标 进化 算法 的 多 距离 聚 类 研究 


刘 从 ， 万 秀 华 
(上 海 理工 大 学 光电 信息 与 计算 机 工程 学 院 ， 上 海 200093) 


摘 要 : 传统 的 聚 类 算法 通常 基于 单一 的 距离 度量 而 设计 ， 如 何 将 多 种 距离 度量 有 机 融合 在 一 起 是 当前 面临 的 一 个 挑 
战 。 提 出 了 一 种 基于 多 目标 进化 算法 的 多 距离 度量 聚 类 框架 (multiobjective evolutionary multiple distance measure 
clustering，MOMDC)， 并 使 用 欧 氏 距离 和 Path 距离 来 设计 实际 框架 。 该 框架 首先 将 数据 集 分 别 用 两 种 距离 测度 预 聚 
类 ， 而 后 将 预 聚 类 结果 做 合并 ， 以 降低 问题 的 规模 ; 其 次 分 别 计算 子 类 间 的 两 种 距离 关系 ; 最 后 使 用 多 目标 进化 算法 
在 两 种 距离 空间 中 并 行 聚 类 。 在 多 目标 进化 算法 设计 中 ,使 用 实数 -标签 的 编码 方式 来 设计 染色 体 ， 并 且 设 计 了 基于 两 
种 距离 测度 的 两 个 适应 度 函 数 对 染色 体 进 行 评估 。 最 终 将 MOMDC 与 其 他 几 种 经 典 算法 在 大 量 的 数据 集 上 进行 实验 对 
比 。 实 验 表明 ， 0 得 良好 的 结果 。 
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Research on multiple distance clustering based on multi-objective evolutionary algorithm 


Liu Cong, Wan Xiuhua 
(School of Optical-Electrical & Computer Engineering, University of Shanghai for Science & Technology, Shanghai 200093， 
China) 


Abstract: Traditional clustering algorithms often based on a single distance metric, and how to integrate multivariate metrics is 
a key challenge in clustering algorithms. This paper proposes a multiobjective Evolutionary Multiple Distance Measure 
Clustering (MOMDC) based on multi-objective evolutionary algorithm. In this paper, using the Euclidean distance and Path 
distance to design the actual framework. Firstly, The framework uses the two distance measures to preprocess the classes, and 
then combining the prepolymerization results to reduce the size of the problem. Secondly, using the multi-objective evolutionary 
algorithm to cluster in two distance spaces in parallel. In the design of multi - objective evolutionary algorithm, chromosomes 
using real - tag coding, and two fitness functions based on two distance measures are designed to evaluate the chromosomes. 
Finally, MOMDC will compare to several other classic algorithms in the data set . Experiments show that the framework can 
achieve good results for different distributed data sets. 
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随 着 信息 技术 和 计算 机 技术 的 迅速 发 展 ， 数 据 规模 不 断 增 

大 ， 数 据 类 型 呈现 多 样 化 发 展 。 如 何 从 海量 数据 中 挖掘 出 隐 含 
的 、 有 价值 的 知识 是 研究 者 面 对 的 主要 问题 。 因 此 导致 聚 类 分 和 聚 类 、 基 于 谱 分 割 的 聚 类 等 也 被 相继 提出 。 基 于 划分 的 聚 类 
析 、 相 关 分 析 、 回 归 分 析 以 及 方差 分 析 等 各 种 数据 分 析 技 术 的 ” ”在 实际 应 用 中 尤为 广泛 , Kmeans 算法 和 FCM 算法 为 该 类 方法 
发 展 ， 其 中 聚 类 分 析 应 用 最 为 广泛 ， 其 可 将 数据 集 根据 相似 性 ”中 最 经 典 的 两 种 算法 。 但 该 类 算法 的 局 限 性 在 于 : a) 其 对 球形 
规则 分 成 若干 子 类 ， 使 得 同类 中 的 数据 具有 较 大 的 相似 性 ， 不 ” ” 簇 结构 的 数据 聚 类 效果 比较 好 ， 但 是 对 于 任意 形状 结构 的 数据 
tC 


、 基 于 密度 的 聚 类 、 基 于 网 格 的 聚 类 以 及 基于 模型 的 聚 类 。 
年 来 随 着 研究 的 深入 ， 基 于 遗传 个 法 的 聚 类 、 基 于 模糊 数学 


沿 粒 


I 


一 


HH 
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i ii 中 。 作 为 一 种 数据 处 理 算法 ， ”效果 不 是 很 理想 ，b) 两 种 算法 在 求解 过 程 中 容易 陷入 局 部 最 优 
聚 类 分 析 广 泛 应 用 统计 学 、 模 式 识 别 、 机 器 学 习 、 数 据 挖掘 等 解 。 基 于 密度 的 算法 使 用 数据 的 密度 属性 来 寻找 非 球形 结构 的 
人 艇 局 。 基 于 层次 的 算法 使 用 最 大 类 间距 、 最 小 类 间距 或 其 他 距 
现 有 的 聚 类 算法 可 划分 为 基于 层次 的 聚 类 、 基 于 划分 的 聚 ”” 高 度 量 来 对 数据 进行 合并 或 分 裂 来 寻找 非 球形 结构 的 艇 。 谱 肾 
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类 使 用 核 空间 距离 将 数据 描述 成 图 的 形式 [4], 使 用 图 市 的 思想 
对 数据 聚 类 。Path 距离 外 、 流 形 距离 {9, 切 比 雪夫 距离 、 核 距离 
等 将 任意 形状 的 数据 映射 到 非 欧 氏 距离 中 对 数据 聚 类 。 

综 上 所 述 ， 在 针对 任意 形状 簇 的 聚 类 算法 中 ， 大 部 分 算法 
都 是 将 数据 点 映射 到 可 划分 的 距离 空间 中 ,或 者 使 用 新 的 距离 
函数 来 度量 两 个 点 之 间 的 相似 性 。 这 说 明 相 似 性 测度 在 聚 类 分 
析 中 占有 非常 大 的 作用 。 使 用 多 距离 聚 类 也 越 来 越 受到 研究 者 
的 关注 ， 近 年 来 众多 研究 者 提出 了 基于 多 距离 度量 相 结合 的 聚 
类 算法 。 文 献 [7] 提 出 了 一 种 同时 考虑 多 个 相 异 矩阵 相 结合 ， 从 
而 对 对 象 进行 划分 的 硬 聚 类 算法 。 其 中 矩阵 是 由 不 同 的 变量 集 
和 相 异 函数 生成 。 文 献 [8] 中 提出 了 基于 多 目标 距离 度量 相 结 合 
的 聚 类 方法 。 但 是 上 述 这 些 方法 都 是 简单 的 把 两 种 距离 使 用 权 
重 三 加 在 一 起 ， 而 如 何 设置 合适 的 权重 非常 困难 。 因 此 ， 如 果 
种 算法 可 以 针对 不 同 的 数据 结构 自动 选取 不 同 的 相似 
性 测度 是 当前 的 一 大 挑战 。 

聚 类 问题 也 可 以 看 做 一 种 优化 问题 ， 在 求解 问题 的 全 局 最 
天上， 进化 算法 应 用 非常 广泛 中。 进化 算法 有 其 他 算法 无 可 比 
拟 的 优势 ， 它 是 一 种 群体 智能 优化 算法 ， 通 过 选择 、 交 叉 及 变 
异 来 寻找 全 局 最 优 解 。 近 年 来 ， 研 究 者 提出 了 许多 基于 进化 算 
法 的 聚 类 方法 。 文 献 [10] 针 对 K-modes 聚 类 算法 对 初始 聚 类 中 
心 的 选择 敏感 ， 存 在 容易 陷入 局 部 最 优 解 的 缺点 ， 提 出 了 基于 
差分 进化 计算 的 K-modes 聚 类 算法 ， 取 得 了 更 好 的 聚 类 结果 。 
文献 [11] 提 出 了 一 种 基于 差分 进化 的 模糊 C- 均 值 聚 类 算法 研究 ， 
思想 就 是 将 DE 算法 应 用 到 FCM 算法 中 ,在 一 定 程度 上 解决 了 
FCM 算法 过 分 依赖 于 初 值 ,对 噪声 数据 敏感 的 问题 。 然而, 这 些 


能 设 


到 C ={C,.,C,} 类 中 ， 满 足 
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CUCU,..., UC,.=X 


CMC,=8 ,i,j=1,... 
CG, i=1,..., 
K-means 算法 是 一 种 比较 经 典 的 聚 3 


ki] 
k 


算法 , 其 基本 流程 为 : 


a) 在 x 中 任意 选择 k 个 对 象 作为 初始 聚 类 中 心 


c={fc，cu}j ，k 为 聚 类 的 数目 ; 
b) 计 算 每 个 数据 对 象 与 聚 类 中 心 的 

将 数据 点 分 别 划分 到 不 同 的 类 中 c ; 
c) 重 新 计算 每 个 聚 类 的 类 中 心 c ; 
d) 循 环 b)c) 直 到 每 个 类 中 心 不 


距离 ， 


根据 最 近 距 离 


再 发 生变 化 。 


该 算法 由 于 其 简单 易 行 已 受到 和 
具有 一 些 局 限 性 : 
al) 由 于 本 算法 的 初始 聚 类 中 心 是 随 


究 者 的 广泛 使 用 ， 但 其 也 


机 选择 的 ， 不 同 的 初始 


中 心 获得 的 聚 类 结果 也 有 所 不 同 常会 使 算法 陷入 局 部 最 优 。 


b) 本 算法 使 用 欧 氏 距离 作为 数据 样本 间 的 距离 度量 ， 对 超 
球 型 数据 聚 类 效果 较 理想 ， 对 非 超 球 型 数据 聚 类 并 不 好 。 
1.2 多 目标 进化 算法 
个 具有 n 个 决策 变量 ，m 个 目标 的 多 目标 进化 算法 问题 
可 定义 为 : 
1 0) 
stxeQ 


其 中: x={m%m，,h%jeQ 表示 n 
fi:x R(i=], 


互 冲突 ， 一 个 解 对 于 一 个 目标 可 能 是 


已 


算法 多 数 是 针对 单一 目标 函数 和 单一 相似 性 度量 而 设计 的 ， 


个 目标 或 许 是 最 差 的 。 


于 单一 目标 函数 的 缺点 ， 研 究 者 们 也 提出 了 基于 多 目标 进化 算 


法 的 聚 类 方法 。 文献 [12] 提 出 的 MOCK 就 是 一 种 经 典 的 多 目标 
进化 聚 类 算法 ， 它 将 类 内 的 紧凑 型 和 邻居 的 连接 性 作为 两 个 
标 同 时 优化 。 文 献 [13] 中 提出 的 MODEFC 算法 使 用 的 两 个 目标 
分 别 是 FCM 算法 和 XB 指标 。 文 献 [14] 在 经 典 差 分 进化 的 基础 
上 ,提出 了 一 种 基于 空间 距离 的 多 目标 差分 进化 算法 (SD- 
MODE)。 然而 现 有 的 多 目标 进化 聚 类 算法 通常 基于 单一 距离 空 
间 而 设计 ， 以 欧 氏 距离 最 为 常见 ， 对 超 球 型 数据 效果 比较 好 ， 
但 是 对 非 超 球 型 效果 并 不 理想 。 因 此 设计 一 种 基于 多 距离 度量 
以 及 多 目标 进化 算法 聚 类 框架 有 非常 重要 的 意义 。 针 对 上 述 两 
个 问题 ,本 文 提出 了 一 种 基于 多 目标 进化 算法 的 多 距离 聚 类 算 
法 ,该 算法 使 用 多 目标 算法 作为 优化 算法 ,可 以 极 大 地 避免 产生 
局 部 最 优 解 。 并 将 多 种 距离 度量 作为 多 个 目标 函数 加 入 到 算法 
框架 中 ， 使 其 能 对 多 种 数据 结构 并 行 聚 类 ， 既 能 处 理 超 球 型 数 
据 又 能 处 理 非 超 球 型 数据 。 


1 ”相关 工作 


聚 类 
令 X={zx} 表 示 有 具有 n 个 样本 的 数据 集 。 其 中 
二 { 太 1 加 2.… 加 4} 是 含有 d 维特 征 的 样本 向 量 。 育 类 将 X 划分 


1.1 


定义 : 
定义 1 


最 
般 情 况 下 ， 多 目 
个 解 ， 而 是 被 称 为 Pareto 最 优 解 集 的 集合 。 


可 行 解 。 满 足 某 线 性 规划 所 


个 决策 变量 ， 


,m) 为 第 i 个 目标 函数 。 各 个 目标 之 间 一 般 相 


好 的 ， 但 是 对 于 另外 一 
标 优化 的 解 并 不 是 一 
在 此 给 出 几 个 重要 


的 约束 条 件 〈 指 全 


部 前 约束 条 件 和 后 约束 条 件 ) 的 任意 
称 为 该 线性 规划 的 一 个 可 行 解 。 
定义 2 ”可行 解 集合 。 所 
定义 3 Pareto 支配 。 假 设 x ,zx s 
个 解 ， 称 x 支配 x 当 且 仅 当 v=1,2, 


组 决策 变量 的 取 值 ， 都 


I 可行 解构 成 的 集合 。 


QQ 是 满足 约束 函数 的 两 


LL 


fx)<f(%,) 并 且 f(x)zf(x,); 记 作 x， x,。 


定义 4 Pareto 最 优 解 。 如 果 一 个 解 x* 被 称 之 为 Pareto 的 


最 优 解 当 且 仅 当 xeQ ,都 x Yo 
定义 5 Pareto 最 优 解 集 。Pareto 
解 的 集 合 最 优 


X={x eQ|-3, eQ, fx) FooD} 


,Pareto 


定义 6 Pareto 前 沿 卫 
应 的 下 ， 即 为 Pareto 最 优 
PF ={f (x) = fi (0),f(7),.., f(D |xeX 
RMMEDA 算法 是 一 种 经 典 的 多 目 


最 优 解 集 是 Pareto 最 优 
解 X 定义 为 


。Pareto 最 优 解 集 在 函数 空间 上 对 


解 ， 简 称 pp* 。 
} 。 
标 优化 算法 。 其 基本 思 


想 为 建立 若干 个 m-1 维 流 


区分 布 的 概率 模型 以 通 近 整个 Pareto 
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Rn 


nt 


。 其 基本 流程 为 : 
a) 男 进化 代数 g=0， 随 机 生成 初始 种 群 Pop(g) 并 


个 个 体 的 适应 度 函 数 F; 
b) 建 立 P(g) 的 概率 分 布 模型 ，N 表示 N 个 解 ; 


0c) 根据 概率 模型 产生 新 的 解 身 
dd) 从 R 和 Pop(g) 中 选择 NP 个 个 体 ， 使 | 
生成 子 代 Pop(g+1); 
否 满足 停止 规则 , 如 果 满 足 转 向 step6, 否则 g=g+1， 


日 判断 是 
重 复 b)~e) 和 
人 ) 返 区 


具体 算法 可 参考 文献 [15]。 


2 ”算法 模型 


针对 传统 聚 类 算法 


在 处 理 非 超 球 簇 时 存在 


出 了 一 种 基于 多 


标 进 化 算法 的 多 距离 


将 多 种 距离 有 机 副 


h 合 到 一 个 算法 框架 


有 两 种 距离 的 聚 类 结果 。 


2.1 


部 分 ， 


算法 主要 步骤 
MOMDC 的 算法 流程 图 如 图 
分 别 为 数 # 


时 预 处 理 、 


de 该 算 
聚 类 以 及 


进化 算 


tot 


示 。 聚 类 预 处 理 阶 段 将 数据 集 进行 预 分 类 及 合 


降低 数据 点 的 规模 来 降低 算法 时 


间 复 杂 度 ， 进 


算法 的 核心 阶段 ， 其 通过 染色 体 编码 、 进 化 算 


数 评估 来 寻找 最 佳 


2.2 ”数据 预 处 理 


本 节 主 要 将 数 扩 


案 类 ， 


最 终 将 最 佳 聚 类 结果 


开始 


民 备 辣 Pa 证 符 辣 
分 类 预 分 类 


适应 度 评价 选择 


满足 停止 条 件 
是 


选 折 最 佳 pareto 点 


输出 聚 类 结果 


杂 度 ， 所 以 需要 对 数 


kd 
空间 中 分 别 村 


聚 类 ， 所 以 也 需 3 
察 类 ,然后 


a 


要 使 用 两 种 距离 
告 同属 一 类 的 样本 对 放 入 同一 子 类 中 。 
的 两 种 距离 为 欧 氏 距离 和 Path 距离 四， 
有 效 的 发 现 数据 中 的 超 球 禾 ， 


1 MOMDC 算法 流程 图 


划分 为 多 个 小 的 子 类 来 降低 算法 的 时 


进行 预 聚 类 。 由 于 本 文 


聚 类 框架 
中 ， 使 用 i 


收 预 聚 类 。 


攻 R， 计 算 R 的 适应 度 函 数 ; 
] 非 支配 排序 策略 


Pop(g) 的 非 支配 解 集 ， 形 成 PS 前 沿 。 


的 不 足 ， 本 文 提 
。 该 框架 可 以 
该 框架 可 获得 含 


力 口 


法 主要 包括 三 个 
最 终 聚 类 结果 显 
并 ， 该 步骤 通 
化 算法 聚 类 为 该 
子 迭 代 和 


挑选 出 。 


: 


标 函 


使 用 两 种 距离 对 
首先 在 两 种 距 


网 氏 距 离 可 以 


Path 距离 可 以 发 


掘 某 种 不 规则 地 


i 
分 布 。 
2.2.1 欧 氏 空间 预 聚 类 

首先 使 用 欧 氏 距离 中 对 数据 预 聚 类 。 在 此 使 用 FCM 作为 
聚 类 算法 ， 如 式 (2) 所 示 。 由 于 预 分 类 的 类 别 数 需 
为 了 体现 本 算法 的 自 适应 性 ， 使 用 CS 指标 自动 检测 最 佳 时 
数目 ，CS 指标 如 式 (3) 所 示 。 


,= 2 d(x) 


7 


要 提前 设 定 ， 


案 类 


2) 


a 
= G3) 
Doinld(ene)))) 


三 尾 
个 隶 加 


其 中 : mi 表示 聚 类 数目 , n 表示 样本 点 数目 ,m 表示 度 
的 因子 ， 一般 取 2， ee ee tO 
中 心 ，dl,) 为 距离 测度 。 该 模块 结束 后 可 获得 一 组 子 类 
C={C,r=1,...,m1} 。 

2.2.2 Path 空间 预 聚 类 

使 用 Path 距离 对 数据 进行 预 分 类 。 由 于 Path 距离 描述 的 
是 任意 两 个 样本 之 间 的 关系 , 需要 计算 任意 两 点 之 间 的 Path 距 
离 ， 形 成 一 个 距离 矩阵 ， 再 使 用 NCUT 算法 [4] 对 Path 距离 矩 


阵 进 行 预 分 类 。 在 此 也 需要 自动 确定 预 分 类 的 分 类 数目 ， 使 用 
式 (4) 来 检测 最 佳 聚 类 数目 。 
CR,P) CR,XD) 
: 4 
Sy X) (er, xy | 人 


其 中 : Pi 表示 第 i 类 的 包含 的 数据 点 ,站 表示 所 有 数据 ，L(PsPy 
表示 同一 类 中 ,各 元 素 之 间 的 距离 ,LX 区 则 表示 所 有 元 素 之 间 
的 距离 .L(Ps 妨 表示 数据 与 在 不 同类 中 其 他 元 素 的 距离 ， 
L(PsPWL(X 有 表示 数据 与 同类 中 其 他 样本 的 相关 性 ,而 
L(PsX/L(X, 如 表示 某 类 中 的 各 个 点 分 别 与 其 他 所 有 的 样本 之 间 
的 相关 性 。 该 模块 结束 后 可 获得 一 组 子 类 P={Ps 全 1,.…,m2} 
2.2.3 预 聚 类 结果 合并 

该 模块 的 主要 工作 为 将 两 种 相似 性 测度 


中 获得 的 聚 类 结果 


进行 合并 。 将 两 种 预 聚 类 时 都 属于 同一 类 的 样本 对 放 在 同一 类 
中 。 
合并 的 原理 为 如 果 两 个 数据 点 按 FCM 聚 类 的 结果 和 谱 聚 


类 的 结果 都 为 同一 类 ， 则 这 两 个 数据 点 为 同一 类 ， 反 之 ， 则 为 
不 同 的 类 数 。 若 预 聚 类 数目 为 ml 和 m2， 则 合并 后 的 聚 类 数 
<=mi*m2 类 。 合 并 之 后 会 得 出 一 个 新 的 聚 类 中 心身 
M={M4q=1,…,r}。 合 并 的 算法 伪 代 码 如 下 : 


输入 : X,C,P。 


蝇 


流 


出 : M= a 聚 类 合并 结果 。 
输出 : M={M,,q=1,.…r} 聚 类 合并 结果 
初始 化 : 数据 集 X = {x ,i 二]..….n}; 欧 氏 距离 预 分 类 集合 C = {C ,y==1,.….m,} ; Path 距离 预 


分 类 集合 已 = {Pp ,k=1, 10 Mi = QO=M, 
1.for i=1 to n do 
2. for j=i+l to n do 


汉 if Xx EQNx, EQ then:; 
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// 如 果 xi 和 xj 都 不 在 Q 集合 中 ， 说 明 这 两 个 样本 还 未 被 遍历 
4 9q=q+1;iMa={xi} 先 将 xi 放 入 一 个 新 的 Mq 类 中 
5. 证 (3C,,s,t, XxX; EEC)AGR9t Xi EP) then 


// 如 果 xi 和 xj 既 被 欧 氏 距离 预 分 类 到 一 个 子 类 中 也 被 Path 距离 预 分 类 到 一 个 子 类 中 


6. M,=M, {xX}; 将 六 放 入 xi 所 在 的 子 类 Mi 中 


7. QO=Q MM,; 设置 Mi 为 已 遍历 样本 

8. else AF (x eQAx, ¢0Q) then 

// 如 果 xi 在 Q 集 合 中 并 且 xi 不 在 Q@ 集 合 中 ， 说 明 xi 已 被 琅 历 ，xi 未 被 遍历 
9. if (3C,,s,t, x, XC, ) AIP sb) EP.) then 


// 如 果 xi 和 xi 既 被 欧 氏 距离 预 分 类 到 一 个 子 类 中 也 被 Path 距离 预 分 类 到 一 个 子 类 中 


10. find M,sst, x EM,; 寻找 xi 所 在 的 子 类 Mp 
把 M，, =M， {Xj}; 将 入 放 入 子 类 Mp 中 
1 else if( x ¢ OAx, eQ ) then 
i j 

// 如 果 xi 在 Q 集 合 中 并 且 xi 不 在 Q@ 集 合 中 ， 说 明 xj 已 被 遍历 ，xi 未 被 遍历 
13. if (3C,,s,t,x eC,)A(3P,s,t,x eP) then 
14. find M wrtx eM. 

p75 x) p’ 
15 M,=M, J {xX}; 
16 j=j+1 


27 i=i+1 


18. i 


贡 


可 最 终 合 并 子 类 集 M={M,q=1 


2.3 多 目标 进化 聚 类 算法 


本 模块 主要 通过 多 目标 进化 算法 框架 同时 对 欧 氏 距离 和 
Path 距离 中 进行 并 行 聚 类 。 需 要 考虑 染色 体 编 码 、 目 标 函 数 设 
置 、 进 化 算 子 设置 和 挑选 最 佳 Pareto 点 ， 其 中 前 两 者 为 主要 考 
虑 的 部 分 。 

2.3.1 染色 体 编 码 
预 处理 合 并 后 ， 获 得 一 组 预 聚 类 结果 {M，M， M,}, 接 下 


Rol 多 信 漆 离 聚 类 有 , 


则 目标 函数 1 为 


k 
表土 起 三 >， Dm —me, | (9) 
LU) 一 / 
对 于 目标 函数 2， 使 用 Path 距离 计算 两 个 子 类 之 间 的 距离 
关系 。 由 于 Path 距离 属于 路 径 连 通 性 距离 ， 所 以 使 用 两 个 子 类 
之 间 的 最 短 距 离 作 为 之 间 的 距离 ， 如 图 2 所 示 。 


COED 


2 类 间距 离 表 示 图 


4d 为 Mi 类 和 M2 类 所 有 点 之 间 最 短 的 距离 ， 在 此 使 用 a 作 
为 两 类 的 类 间距 离 。 目 标 函 数 2 如 式 (10) 所 示 。 


户 = 广 = 了 ， LOMC,MC) (10) 


由 于 目标 函数 1 fi 是 基于 欧式 距离 的 紧凑 度 而 设计 的 ， 目 
标 函数 2 二 是 基于 Path 距离 的 紧凑 度 而 设计 的 。 同 时 优化 这 两 
个 目标 函数 既 可 考虑 到 欧式 空间 的 聚集 性 ， 又 可 以 考虑 到 Path 


空间 的 聚集 性 。 
2.3.3 进化 算 子 
本 文 进化 算 子 使 用 RMMEDA 算法 中 的 进化 算 子 ， 在 此 不 


做 详细 介绍 。 
2.3.4 挑选 最 佳 聚 类 结 


最 后 生成 的 Pareto 集中 ， 由 于 有 多 个 解 ， 如 何 选取 出 最 好 
的 解 也 是 一 个 问题 。 对 于 在 海量 结果 解 的 情况 下 ， 人 工 方式 不 
能 完成 。 但 本 实验 最 终 的 Pareto 集中 解 并 不 多 ， 因 此 ， 通 过 解 


来 需要 对 该 7 个 子 类 划分 成 k 个 类 {MC,, MC， MC,} 中 ,在 
此 使 用 实数 对 染色 体 编码 ， 染 色 体 可 表示 为 

R={R, R,, ,R,} (5) 
其 中 :;，R e(0,1],，i=1,2，,r，L(M,)=|R*k| 表 示 Mi 所属 的 


码 画图 显示 出 其 对 应 的 聚 类 结果 ， 再 从 所 有 的 解 集 中 人 工 找 出 
分 类 结果 最 好 的 情况 。 昌 然 降 低 了 效率 ,但 也 能 成 功 解决 问题 


结果 与 分 析 


3 实验 


类 标签 。 为 了 描述 提出 算法 的 有 效 性 ， 本 节 将 提出 的 算法 与 现 有 的 
2.3.2 目标 函数 设置 几 种 算法 进行 对 比 。 对 比 算 法 包括 Kmeans 算法 ，FCM 算法 ， 

该 模块 主要 定义 两 个 适应 度 函 数 ， 第 一 个 适应 度 函 数 f 是 。 基于 欧 氏 距离 的 NCUT 算法 (NCUTE) 内 ， 基 于 Path 距离 的 
基于 欧 氏 距离 而 设计 ， 第 二 个 适应 度 函 数 户 基 于 Path 距离 设 NCUT 算法 (NCUTP)， 以 及 基于 密度 的 DBSCAN 算法 中 。 


计 。 对 于 fi, 本 文 首先 计算 子 类 {M，M 2 
{m1,m2,…,mr} ,如 式 (6) 所 示 。 


M,.} 的 每 个 类 中 心 


1 
m; = a x (0) 
接 下 来 主要 对 类 中 心 操作 , 将 类 中 心 {oapma2 mm 划分 到 K 
个 类 中 。 每 个 类 MC 可 表示 为 如 式 (7) 所 示 
MC gu = MCFRs) Sm 
(7) 
if LM,)=|R,*k| 
解码 后 ， 每 个 类 的 类 中 心 mci 表示 为 
1 
mc; = za ya | x (8) 


标 对 聚 类 效果 的 评价 指标 有 很 多 ， 如 NMI 指标 、F-score 

指标 以 及 Rand 指标 。 本 实验 中 聚 类 精度 使 用 Rand 指标 进行 评 

估 ，Rand 值 越 高 ， 说 明 聚 类 效果 越 好 ， 当 Rand=1 时 表明 所 

的 样本 都 划分 到 正确 的 类 别 中 。 

3.1 算法 参数 设置 
首先 对 算法 使 用 的 参数 做 简单 说 明 ， 对 于 MOMDC， 种 群 

大 小 为 600, 和 迭代 次 数 为 2500。 对 于 DBSCAN 算法 , 扫描 半径 

eps 为 0.9534， 最 小 包含 点 数 (minPts) 为 5。 

3.2 测试 数据 设置 
本 文 使 用 6 个 测试 数据 对 提出 算法 进行 有 效 性 测试 。 由 于 

提出 算法 的 优势 在 于 既 考 虑 了 欧 氏 距离 又 考虑 了 Path 距离 , 既 
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E 对 球形 簇 聚 类 又 能 对 不 规则 形状 数据 聚 类 。 所 以 模拟 的 测试 


有 
集 既 


球形 艇 数据 (XOR) 和 (ARC)， 


(LTS) 。 另 外 将 两 个 UCI 数 


又 有 非 球形 徐 (LFF)〉 和 


居 IRIS 和 WINE 加 入 到 测试 数据 


中 。 部 分 测试 数据 如 图 3(a)~(d) 所 示 。 


图 3 ”部 分 测试 数据 自 
所 有 测试 数据 集 的 数据 属性 


270, w ~ ~ 


| 7 
250| 本 eb | 
S| 
230| Y | 
| 人 
210| 痊 27 
| 
| “ 洗 
190 和 而 说 10 200 
(DARC 
oo -一 一 
280 
240 
200 
160 隐 
1290 120 160 200 240 


(WLTS 


雁 


如 表 1 所 示 。 


表 1 测试 数据 集 属性 
DataSets DimenN DataN ClusterN 
XOR 2 240 4 
ARC 2 240 2 
LFF 2 618 2 
LTS 2 160 之 
WINE 13 178 3 
IRIS 4 150 3 
其 中 : DimenN 表示 维 数 ，DataN 表示 样本 点 数目 ，ClusterN 表 
示 正 确 的 聚 类 数目 。 


3.3 MOMDC 聚 类 展示 


本 节选 取 XOR、ARC 和 LTS 数据 集 类 
其 中 每 个 Pareto 图 中 的 和 和 了 分 别 表示 欧 氏 


对 应 的 聚 类 结果 。 


展示 Pareto 集 以 及 


距离 聚 类 和 Path 距离 聚 类 。Gen 表示 迭代 次 数 。 


XOR 对 应 的 Pareto 
Gen=2500 
15 r 
| 
05 
” 0 
-05- 
深 0 1 2 


(a)XOR 对 应 的 Pareto 图 


4 可 以 得 


图 以 及 对 应 的 每 


图 4 XOR 对 应 的 Pareto 解 集 及 其 聚 类 结果 


案 类 结果 如 图 4 所 示 。 


* ” 
0.8 六 米 才 半 起 作 

入 
0.6 米 汪 洲 、 


出 ，Pareto 图 上 的 解 集 只 有 一 个 ， 这 表明 


和 


通过 图 
和 


该 数 
如 表 2 所 示 。 


在 两 种 距离 空间 中 都 可 以 获得 比较 好 的 结果 。 结 果 值 


刘 从， 等 : :a 0 总 仿 于 网 


表 2 XOR 的 Pareto 集 对 应 的 聚 类 结果 


fi f Rand 
1 0.08 9.99e-08 1.00 
ARC 对 应 的 Pareto 图 以 及 对 应 的 聚 类 结果 如 图 5 所 示 。 
U Gen=2500 
15x10 | i | 
人 0 260| PS 260 误 CE 
Re 40| < 240 < 时 
5 220 全 - .区 > 二 E 克 
200| 和 200| > 
' 05 1 15 “9 而 人 一 仙 30 ' 史 一 10 ”10 ”200 
1 x10 
(a) (b) (9) 


在 图 5(a) 中 ，Pareto 有 4 个 点 ， 此 处 选取 两 个 具有 代表 性 
的 点 做 分 析 。 其 中 图 5(b) 是 第 1 个 点 的 聚 类 结果 ， 图 
3 个 点 对 应 的 聚 类 结果 。 图 5(b) 聚 类 结果 


92% 的 点 聚 类 结果 正确 ， 图 5(c) 聚 类 结 
表 3 所 示 。 这 表明 提出 的 算法 在 超 球 型 
聚 类 效果 。 


图 5 ARC 对 应 的 Pareto 图 以 及 聚 类 结果 


5(c) 是 第 
不 完全 正确 ， 只 有 
吉 果 完全 正确 。 结 果 值 如 
数据 中 可 以 获得 良好 的 


表 3 ARC 的 Pareto 集 对 应 的 聚 类 结果 


fi 也 Rand 
1 10.13el 10.02e5 0.92 
2 54.60e2 4.02e4 0.99 
3 73.14e2 2.72e4 1.00 
4 19.82e3 9.68e3 0.52 
LTS 对 应 的 Pareto 对 应 的 结果 如 图 6 所 示 : 
x10 | Gen=2500 ， | 
6 0.8 
i 06 
0.4 
2 
02 
和 002 | 004 006 9 02 04 06 08 1 
1 
(a) (b) 
1 1 
08 Se 0.8 
和 tf SD 和 i 
04 和 (2 关 0.4 
02 SEE 02 
| 沙洲 洲 米 
0 0 
0 02 04 06 08 1 0 02 04 06 08 1 
(0) (d) 


在 图 6(a)j 
个 点 对 应 的 聚 类 结果 ， 所 
率 只 有 5 
图 6(d) 是 3 个 点 对 应 的 聚 类 结果 。 有 具体 结 
该 测试 数据 可 以 得 出 ，MOMDC 在 非 超 球 型 数据 中 可 


50.5%; 


示 。 通 过 


图 6 LTS 对 应 的 Pareto 图 以 及 聚 类 结果 


0%; 图 


6(c) 是 第 1 个 对 应 的 村 


PpP，Pareto 图 中 有 3 个 Pareto 点 ; 6(b) 是 第 2 
的 数据 都 分 到 同一 类 中 ， 聚 类 正确 


聚 类 结果 ， 聚 类 正确 率 为 


吉 果 值 如 表 4 所 
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离 聚 类 研究 
以 获得 比较 好 的 聚 类 效果 。 也 增加 了 算法 的 时 间 复 杂 度 。 
表 4 LTS 的 Pareto 集 对 应 的 结果 该 框架 还 处 于 研究 的 初步 阶段 ， 对 该 框架 的 研究 还 有 较 大 
f f Rand 的 改进 空间 , 主要 包括 : a) 如 何 降低 算法 的 时 间 复 杂 度 ; b) 如 何 
1 007e01 621e04 0.51 在 获得 的 Pareto 集中 自动 选择 合适 的 聚 类 结果 ;c) 如 何 自动 确定 
2 0 聚 类 的 类 数目 是 接 下 来 研究 的 重点 。 
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